비주얼 지오로컬라이제이션(Visual Geo-localization)

1. 디지털의 눈, 현실 세계의 좌표를 읽다

1.1 비주얼 지오로컬라이제이션(VGL)의 정의와 중요성

비주얼 지오로컬라이제이션(Visual Geo-localization, VGL), 또는 시각적 위치 추정은 디지털 이미지나 비디오에 포함된 시각적 단서(visual cues)만을 분석하여, 해당 미디어가 촬영된 정확한 지리적 위치와 카메라의 방향까지 추정하는 컴퓨터 비전의 한 분야이다.1 이 기술의 핵심은 GPS(Global Positioning System) 태그와 같은 외부 메타데이터에 의존하지 않는다는 점에 있다. 대신, 이미지 자체에 내재된 고유한 정보, 예를 들어 건물의 독특한 외관, 도시의 랜드마크, 도로의 형태, 산의 능선과 같은 지형지물 등을 활용하여 위치를 특정한다.2 VGL은 본질적으로 “이 사진은 어디에서 촬영되었는가?“라는 근본적인 질문에 대한 컴퓨터의 시각적 답변이다.

VGL 기술이 최근 급부상하게 된 배경에는 데이터의 폭발적인 증가와 기존 기술의 명백한 한계가 자리 잡고 있다. 인류가 생성한 수많은 디지털 이미지, 특히 과거 필름 카메라 시절에 촬영되었거나 GPS 기능이 없는 구형 디지털 기기로 수집된 방대한 양의 아카이브 데이터는 위치 정보가 없어 체계적인 정리와 분석에 큰 어려움이 있었다.2 VGL은 이러한 ‘좌표 없는’ 데이터에 지리적 맥락을 부여하여 잠들어 있던 정보에 새로운 가치를 불어넣는 핵심적인 역할을 한다. 더 나아가, 이 기술은 증강현실(AR), 자율주행 자동차, 지능형 로봇, 위치 기반 서비스(LBS) 등 차세대 기술 패러다임을 실현하기 위한 필수 불가결한 요소로 인식되고 있다.2 현실 세계와 디지털 정보를 정밀하게 연결하는 VGL의 능력은 미래 기술의 성패를 좌우할 중요한 기반 기술로 평가받는다.

1.2 기존 위치 인식 기술과의 비교: GPS를 넘어, 상호 보완의 시대로

위치 인식 기술의 대명사인 GPS는 위성으로부터 수신한 신호를 기반으로 작동한다. 이로 인해 실내, 지하 공간, 높은 빌딩이 밀집한 도심 협곡(urban canyon), 터널 등 위성 신호가 약화되거나 완전히 차단되는 환경에서는 정확도가 급격히 떨어지거나 사용 자체가 불가능해지는 명백한 한계를 가진다.2 또한, 건물이나 지형지물에 의해 신호가 반사되어 발생하는 다중 경로 오차(multipath error)는 수 미터에 달하는 위치 오차를 유발할 수 있으며, 사용자의 위치(위도, 경도)는 알려줄 수 있어도 그가 어느 방향을 바라보고 있는지에 대한 정밀한 ‘방향(orientation)’ 정보까지 제공하기는 어렵다.4

VGL은 바로 이러한 GPS의 공백을 메우는 강력한 상호 보완적 기술이다. GPS 신호가 닿지 않는 환경에서 VGL은 카메라에 포착된 시각 정보를 통해 위치를 지속적으로 추정함으로써 끊김 없는(seamless) 위치 인식 서비스를 가능하게 한다.2 예를 들어, 자율주행차가 긴 터널에 진입하여 GPS 신호가 끊겼을 때, VGL은 터널 내부의 조명, 차선, 비상구 표시 등 구조물을 사전에 구축된 3D 지도와 비교하여 차량의 위치를 cm 단위로 정확하게 유지할 수 있다. 이는 VGL이 단순히 GPS의 대체 기술이 아님을 시사한다. 오히려 VGL은 기존 위치 인식 시스템의 가용성(availability)과 강인성(robustness)을 극대화하여 어떠한 환경에서도 신뢰성 있는(reliable) 위치 정보를 제공하는 차세대 하이브리드 측위 시스템을 구축하는 데 핵심적인 역할을 수행한다. 초기에는 VGL을 GPS의 대안으로 보는 시각이 지배적이었으나, 자율주행이나 증강현실과 같은 고도화된 응용 분야의 연구가 심화되면서 그 패러다임이 변화하고 있다. VGL은 GPS, 관성측정장치(IMU), 라이다(LiDAR) 등 다른 센서와 ’융합(fusion)’될 때 그 진정한 가치가 발현된다. GPS의 저주기/고정확도 특성과 IMU의 고주기/누적오차 특성을 칼만 필터와 같은 기법으로 결합하는 기존 방식에 VGL이 추가되면, GPS 음영 구간의 공백을 메우고, IMU의 누적 오차를 시각적 랜드마크를 통해 주기적으로 보정하는 역할을 수행할 수 있다. 따라서 VGL의 본질은 특정 기술을 ’대체’하는 것이 아니라, 전체 시스템의 성능을 ’확장’하고 ’강화’하는 데 있다.

VGL의 기술적 접근법은 크게 두 가지 핵심 패러다임으로 나뉜다. 첫 번째는 이미지 검색(Image Retrieval) 기반 방식으로, 수백만 장 이상의 위치 정보가 태깅된(geo-tagged) 이미지 데이터베이스에서 주어진 쿼리 이미지와 가장 시각적으로 유사한 이미지를 찾아 그 위치 정보를 활용하는 방법이다. 두 번째는 3D 모델(3D Model) 기반 방식으로, 대상 지역을 사전에 정밀한 3차원 공간 지도(예: 포인트 클라우드)로 구축한 뒤, 쿼리 이미지를 이 3D 지도와 정합(align)하여 카메라의 정밀한 6자유도(6-DoF: 6 Degrees of Freedom) 위치 및 방향을 계산하는 방법이다. 각 방식은 고유한 장단점을 가지며 응용 분야의 요구사항에 따라 선택적으로 혹은 결합되어 사용된다.

Table 1: 주요 위치 인식 기술 비교

기술명	핵심 원리	주요 장점	주요 단점	핵심 적용 분야
GPS	위성 신호 삼각측량	글로벌 커버리지, 높은 절대 정확도	실내/음영 지역 불가, 낮은 업데이트 주기, 방향 정보 부정확	차량 내비게이션, 실외 위치 추적, 물류 관리
Wi-Fi/Cellular	기지국/AP 신호 강도 기반 데이터베이스 조회	실내 사용 가능, 저비용, 저전력	AP/기지국 데이터베이스 필요, 낮은 정확도(수십 미터)	실내 위치 기반 서비스, 자산 추적
Visual Geo-localization (VGL)	시각 정보 기반 데이터베이스/3D 모델 매칭	고정밀(cm급 가능), 6-DoF 방향 추정 가능, 인프라 불필요	대규모 DB/모델 필요, 조명/날씨 등 환경 변화에 취약	증강현실(AR), 자율주행 정밀 측위, 로보틱스
SLAM	센서 데이터 기반 동시적 지도 작성 및 위치 추정	미지 환경에서 자율적 작동, 상대 위치 정확도 높음	장기 운용 시 오차 누적(drift) 발생, 전역 위치 모름	로보틱스, 드론 자율 항법, 3D 지도 구축

2. Visual Geo-localization의 핵심 원리: 위치 추정의 두 가지 경로

Visual Geo-localization의 구체적인 구현 방법론은 크게 ’이미지 검색 기반 위치 추정’과 ’3D 모델 기반 위치 추정’이라는 두 가지 경로로 나뉜다. 전자는 방대한 이미지 데이터베이스를 활용하여 확장성을 확보하는 데 중점을 두는 반면, 후자는 정밀한 3차원 지도를 통해 높은 정확도를 달성하는 데 초점을 맞춘다. 이 두 접근법은 서로 다른 장단점을 가지며, 특정 응용 분야의 요구사항에 따라 선택되거나 상호 보완적으로 사용된다.

2.1 이미지 검색 기반 위치 추정 (Image Retrieval-based Localization)

이 접근법의 본질은 “내가 지금 보고 있는 이 장면과 가장 비슷한 장소에서 촬영된 사진은 어디에 있는가?“라는 질문에 답하는 과정으로 요약될 수 있다. 이를 위해, 위도와 경도 정보가 포함된 수백만, 혹은 수십억 장의 이미지로 구성된 거대한 지오태깅(Geo-tagged) 데이터베이스를 사전에 구축한다.1 새로운 쿼리 이미지(위치를 알고자 하는 사진)가 입력되면, 시스템은 이 데이터베이스 내에서 쿼리 이미지와 시각적으로 가장 유사한 이미지를 신속하게 검색(retrieve)한다. 그리고 검색된 이미지에 부여된 GPS 좌표를 쿼리 이미지의 위치로 추정하는 것이다.1 이 전체 과정의 핵심 기술을 ’비주얼 장소 인식(Visual Place Recognition, VPR)’이라고 부르며, 이는 주어진 이미지가 이전에 방문했던 장소인지를 시각적으로 판단하는 능력에 해당한다.5

2.1.1 전통적 VPR 기법: 특징점의 언어

전통적인 VPR 기법은 이미지에서 안정적이고 식별력 있는 지역 특징점(local feature)을 추출하고, 이를 기반으로 이미지를 표현하는 방식에 의존했다.

지역 특징점 (Local Features): 이미지의 밝기, 크기, 회전, 시점 변화에도 불구하고 안정적으로 검출될 수 있는 고유한 지점을 ‘특징점(keypoint)’ 또는 ’관심 지점(interest point)’이라고 한다. SIFT(Scale-Invariant Feature Transform), SURF(Speeded Up Robust Features), BRISK(Binary Robust Invariant Scalable Keypoints)와 같은 알고리즘은 이미지에서 코너, 엣지, 블롭(blob) 등 이러한 불변 특징점을 효과적으로 추출하는 데 사용된다.7 각 특징점은 주변 픽셀 정보를 기반으로 고차원 벡터 형태의 ’기술자(descriptor)’로 표현되며, 이 기술자는 해당 특징점의 고유한 시각적 정체성을 담고 있다.
Bag-of-Words (BoW): 하나의 이미지에는 수백에서 수천 개의 지역 특징점이 존재할 수 있다. 이 많은 특징점을 직접 비교하는 것은 비효율적이므로, BoW 모델은 이를 간결하게 표현하는 방법을 제안한다.5 먼저, 대규모 이미지 데이터셋에서 추출한 모든 특징점 기술자들을 클러스터링하여 ’시각적 단어 사전(visual vocabulary)’을 구축한다. 각 클러스터의 중심이 하나의 ’시각적 단어’가 된다. 그 후, 특정 이미지는 그 안에 포함된 특징점들이 어떤 시각적 단어에 해당하는지를 세어, 시각적 단어들의 빈도를 나타내는 히스토그램으로 표현된다. 이는 특정 문서가 어떤 단어들로 구성되어 있는지를 나타내는 것과 동일한 원리다. 두 이미지 간의 시각적 유사도는 이 히스토그램 벡터 간의 유사도(예: 코사인 유사도)로 빠르고 효율적으로 계산될 수 있다.
한계: BoW 모델은 이미지 표현을 단순화하여 검색 속도를 높이는 데 크게 기여했지만, 치명적인 단점을 내포하고 있었다. 바로 특징점들의 기하학적, 공간적 배치 관계를 완전히 무시한다는 점이다.7 예를 들어, ‘창문’, ‘문’, ’벽돌’이라는 시각적 단어가 동일한 개수로 포함되어 있더라도, 이들의 실제 배치 구조가 다르면 전혀 다른 건물일 수 있다. BoW는 이러한 구조적 차이를 구분하지 못하고 단순히 시각적 단어의 빈도수만 계산하기 때문에, 구조적으로는 상이하지만 비슷한 객체나 텍스처를 많이 포함하는 장소들을 혼동하는 경우가 많았다.

2.1.2 딥러닝 기반 VPR 기법: 이미지 전체를 이해하는 능력

딥러닝, 특히 합성곱 신경망(CNN)의 등장은 VPR 분야에 혁명을 가져왔다. 개별 특징점에 의존하던 방식에서 벗어나, 이미지 전체의 맥락과 의미를 이해하고 이를 압축된 벡터로 표현하는 능력을 제공했기 때문이다.

전역 기술자 (Global Descriptors): 딥러닝 기반 VPR의 핵심은 CNN과 같은 심층 신경망을 ’인코더(encoder)’로 사용하여, 입력 이미지 전체의 시각적 정보를 고차원의 단일 벡터로 압축하는 것이다. 이 벡터를 ’전역 기술자(Global Descriptor)’라고 부르며, 이는 이미지의 핵심적인 정체성과 장소의 고유한 ’지문(fingerprint)’을 담고 있다.8 이미지 검색은 이 전역 기술자 벡터들 간의 거리를 계산하여 가장 가까운 벡터를 찾는 방식으로 수행된다.
NetVLAD: NetVLAD는 딥러닝 기반 VPR의 성능을 획기적으로 끌어올린 대표적인 아키텍처이다.5 이는 전통적인 특징 집계 방식인 VLAD(Vector of Locally Aggregated Descriptors)를 딥러닝 네트워크 내에서 미분 가능한(differentiable) 레이어로 구현한 것이다. NetVLAD 레이어는 CNN을 통해 추출된 지역 특징 맵(local feature map)을 입력으로 받아, 이를 학습 가능한 ’소프트 클러스터(soft-cluster)’에 할당한다. 그리고 각 클러스터에 할당된 지역 특징들의 잔차(residual) 벡터를 집계하여 최종적인 전역 기술자를 생성한다. 이 모든 과정이 종단간(end-to-end) 학습이 가능하기 때문에, NetVLAD는 특정 VPR 데이터셋에 최적화된, 매우 식별력 높고 환경 변화에 강인한 기술자를 만들어낼 수 있다.5
환경 변화에 대한 강인성: 딥러닝 기반 VPR 모델의 가장 큰 장점은 극심한 외형 변화(appearance change)에 대한 강인성이다. 동일한 장소라도 낮과 밤, 여름과 겨울, 맑은 날과 비 오는 날에 따라 시각적으로 완전히 다른 이미지처럼 보일 수 있다.5 딥러닝 모델은 학습 과정에서 이러한 변화를 극복하도록 훈련된다. 학습 데이터셋에는 일반적으로 각 이미지의 GPS 정보가 포함되어 있는데, 모델은 이 정보를 이용하여 ’약한 감독(weak supervision)’을 받는다. 즉, 시각적으로는 매우 다르게 보이지만 지리적으로 가까운(positive pair) 이미지들의 전역 기술자 벡터는 서로 가깝게 만들고, 시각적으로는 비슷해 보이지만 지리적으로 멀리 떨어진(negative pair) 이미지들의 기술자 벡터는 서로 멀어지도록 강제하는 손실 함수(예: Triplet Loss)를 사용하여 학습한다.5 이러한 과정을 통해 모델은 조명, 계절, 시점 등 표면적인 변화에 속지 않고 장소의 본질적인 구조와 정체성을 학습하게 된다.

2.1.3 최신 동향: 파운데이션 모델의 등장

최근 VPR 연구의 패러다임은 대규모 데이터로 사전 학습된 ’파운데이션 모델(Foundation Model)’의 등장으로 다시 한번 변화하고 있다.

일반화(Generalization)의 힘: CLIP, DINOv2와 같은 파운데이션 모델들은 인터넷 규모의 방대한 이미지와 텍스트 데이터로 사전 학습되어, 특정 작업이나 데이터셋에 국한되지 않는 매우 강력하고 일반적인 시각 표현(visual representation) 능력을 갖추고 있다.8 이 모델들을 VPR 작업에 적용한 결과, 별도의 VPR 데이터셋으로 미세 조정(fine-tuning)하지 않고도 기존의 전문화된 모델들을 능가하는 놀라운 성능을 보여주었다. 이는 파운데이션 모델이 특정 장소의 외형을 암기하는 것이 아니라, 시각 세계에 대한 폭넓은 이해를 바탕으로 장소를 인식하기 때문에 가능한 것으로 분석된다.
새로운 연구 방향: 이로 인해 VPR 연구의 초점은 ’새로운 아키텍처를 처음부터 설계하는 것’에서 ’강력한 파운데이션 모델의 지식을 VPR 작업에 어떻게 효과적으로 적응(adapt)시킬 것인가’로 이동하고 있다. SelaVPR, CricaVPR, SALAD와 같은 2024년에 발표된 최신 연구들은 이러한 흐름을 대표한다.8 이 연구들은 파운데이션 모델의 기존 지식을 최대한 보존하면서 VPR 성능을 극대화하기 위해, 모델의 일부에만 작은 ‘어댑터(adapter)’ 모듈을 추가하여 학습시키거나, 모델이 추출한 특징들을 집계(aggregation)하는 새로운 방식을 제안하거나, VPR에 더 적합한 새로운 손실 함수를 설계하는 등의 방법을 탐구하고 있다.

2.2 3D 모델 기반 위치 추정 (3D Model-based Localization)

이미지 검색 기반 방식이 ’유사한 이미지를 찾는 것’에 집중한다면, 3D 모델 기반 방식은 ’쿼리 이미지를 3차원 공간 지도에 정확히 위치시키는 것’에 목표를 둔다. 이 접근법은 “이 사진을 찍기 위해서는 3D 공간의 어느 지점에서 어느 방향을 바라봐야 하는가?“라는 기하학적 문제를 푸는 것과 같다. 이를 위해 먼저 대상 지역의 정밀한 3D 모델(예: 포인트 클라우드, 3D 메쉬)을 구축하는 과정이 선행된다. 그 후, 새로운 쿼리 이미지가 주어지면, 이미지의 2D 특징점과 3D 모델의 3D 포인트 간의 대응 관계(2D-3D correspondences)를 다수 찾아내고, 이를 바탕으로 카메라의 정확한 6자유도 포즈(6-DoF Pose: 3차원 위치 x, y, z와 3차원 회전 roll, pitch, yaw)를 추정한다.

2.2.1 3D 지도 구축: Structure-from-Motion (SfM)

3D 모델 기반 방식의 근간이 되는 3D 지도는 주로 Structure-from-Motion (SfM) 기술을 통해 생성된다. SfM은 여러 각도에서 촬영된 2D 이미지만을 입력으로 사용하여, 해당 장면의 3차원 구조(Structure)와 각 이미지를 촬영한 카메라의 움직임(Motion)을 동시에 복원하는 강력한 기술이다.9

SfM의 파이프라인은 다음과 같은 단계별 프로세스로 구성된다 9:

특징점 추출 및 매칭 (Feature Detection and Matching): SfM의 첫 단계는 입력된 모든 이미지에서 SIFT와 같은 강인한 지역 특징점을 추출하는 것이다. 그 다음, 여러 이미지에 걸쳐 동일한 3D 지점을 촬영한 것으로 보이는 특징점들을 서로 매칭하여 ‘대응점(correspondence)’ 쌍을 찾는다. 이 단계에서는 아직 기하학적 검증이 이루어지지 않았기 때문에 잘못된 매칭(outlier)이 다수 포함될 수 있다.
기하학적 검증 (Geometric Verification): 다음으로, 매칭된 특징점 쌍들 중에서 기하학적으로 유효한 매칭(inlier)만을 남기고 잘못된 매칭을 제거한다. 이 과정에서는 두 이미지 시점 간의 기하학적 관계를 설명하는 ’에피폴라 기하학(Epipolar Geometry)’이 사용된다. 특히, RANSAC(Random Sample Consensus) 알고리즘이 핵심적인 역할을 한다.9 RANSAC은 전체 데이터에서 무작위로 최소한의 샘플(예: 8개의 대응점)을 추출하여 모델(예: Fundamental Matrix)을 추정하고, 이 모델이 나머지 데이터 포인트를 얼마나 잘 설명하는지(inlier의 수)를 평가한다. 이 과정을 수없이 반복하여 가장 많은 지지를 받는, 즉 가장 많은 inlier를 가진 모델을 최종 모델로 채택함으로써, 다수의 outlier가 존재하더라도 강인하게 올바른 기하학적 관계를 찾아낼 수 있다.
점진적 재구성 (Incremental Reconstruction): 검증된 매칭을 바탕으로 3D 모델을 점진적으로 구축한다. 먼저, 가장 많은 대응점을 공유하고 시차가 적절한 두 이미지를 선택하여 초기 3D 모델을 생성한다. 그 후, 아직 재구성에 포함되지 않은 새로운 이미지를 하나씩 추가한다. 새로운 이미지의 카메라 포즈는 이미 3D로 복원된 포인트들과 해당 이미지의 2D 특징점 간의 대응 관계(2D-3D matches)를 이용하여 PnP(Perspective-n-Point) 알고리즘으로 추정한다. 카메라 포즈가 결정되면, 이전에 매칭되었지만 아직 3D로 복원되지 않은 점들을 ‘삼각측량(Triangulation)’ 기법을 통해 새로운 3D 포인트로 계산하며 점진적으로 3D 모델을 확장해 나간다.
번들 조정 (Bundle Adjustment): 마지막으로, 전체 재구성 과정에서 누적된 오차를 최소화하고 전역적으로 일관된(globally consistent) 정밀한 3D 모델을 얻기 위해 ’번들 조정(Bundle Adjustment)’이라는 최적화 과정을 수행한다.9 이는 재구성된 모든 3D 포인트의 위치와 모든 카메라의 파라미터(위치, 방향, 초점 거리 등)를 동시에 미세 조정하여, 3D 포인트들을 각 카메라 시점으로 다시 투영했을 때의 오차(reprojection error)의 총합이 최소가 되도록 만드는 비선형 최적화 문제이다. 이 과정을 통해 매우 정밀하고 정확한 3D 포인트 클라우드와 카메라 포즈를 얻을 수 있다.

2.2.2 기하학적 정보의 적극적 활용

전통적인 3D 모델 기반 위치 추정 방식이 개별적인 2D-3D 특징점 매칭에 크게 의존했다면, 최근의 연구들은 3D 모델에서 더 높은 수준의 구조적, 기하학적 특징(geometric features)을 추출하고 이를 매칭 과정에 적극적으로 활용하여 정확도와 강인성을 한층 더 높이는 방향으로 발전하고 있다.7

단순한 점들의 집합을 넘어, 3D 포인트 클라우드에서 평면(plane), 선(line), 건물 외벽, 도로 경계와 같은 구조적인 요소를 인식하고 이를 위치 추정에 활용하는 것이다. 예를 들어, 한 연구에서는 3D 거리 데이터에 SLIC(Simple Linear Iterative Clustering)과 RANSAC 알고리즘을 적용하여 3차원 평면 정보를 먼저 추출한다.7 그리고 쿼리 이미지에서 추출된 2D 특징점들이 3D 공간의 어떤 평면에 속하는지를 함께 고려하여 매칭 점수를 계산한다. 이는 장면의 구조적 맥락을 이해하고 이를 바탕으로 위치를 추정하는 방식으로, 텍스처가 부족하거나 반복적인 패턴이 많아 개별 특징점만으로는 구분이 어려운 환경에서도 오인식 가능성을 크게 줄여준다. 이처럼 기하학적 정보를 활용하는 것은 VGL을 단순한 패턴 매칭에서 장면 이해(scene understanding)의 수준으로 끌어올리는 중요한 단계이다.

이처럼 VGL의 두 가지 핵심 접근법은 서로 다른 강점을 가지고 있다. 이미지 검색 기반 방식은 인터넷에 존재하는 방대한 이미지 데이터베이스를 활용할 수 있어 도시 전체, 나아가 전 세계로 서비스를 ’확장’하기에 용이하다.1 하지만 주로 2D 이미지 간의 시각적 유사도에 의존하기 때문에, 시점 변화가 매우 크거나 3D 구조 정보가 중요한 경우에는 정밀한 포즈(특히 3차원 방향)를 추정하는 데 한계가 있다. 이는 ’어느 도시의 어느 지역’과 같이 대략적인 위치를 찾는 데 더 적합하다. 반면, 3D 모델 기반 방식은 SfM을 통해 생성된 정밀한 3차원 지도를 사용하므로 센티미터 수준의 매우 ‘정밀한’ 6자유도 포즈 추정이 가능하다.13 이는 증강현실이나 자율주행처럼 현실 공간과의 정밀한 정합이 필수적인 응용 분야에 절대적으로 필요하다. 그러나 고품질의 3D 모델을 구축하고 최신 상태로 유지하는 데에는 막대한 비용과 시간이 소요되므로, 특정 지역이나 건물 단위로 적용되는 경우가 많아 ’확장성’이 떨어진다.9

현실 세계의 많은 시스템에서는 이 두 가지 접근법의 장점을 결합한 계층적(hierarchical) 혹은 하이브리드(hybrid) 방식이 널리 사용된다. 예를 들어, 먼저 이미지 검색 기반의 VPR을 사용하여 쿼리 이미지의 대략적인 위치(예: 서울역 근처)를 매우 빠르게 찾아내고(coarse localization), 그 다음 해당 지역에 대해서만 사전에 구축된 소규모의 고정밀 3D 모델을 로드하여 정확한 6자유도 포즈를 계산하는(fine localization) 2단계 접근법이다.14 이러한 방식은 전역적인 확장성과 지역적인 정밀도라는 두 마리 토끼를 모두 잡기 위한 매우 실용적이고 효율적인 해결책이다.

Table 2: VGL 접근법 비교: 이미지 검색 vs. 3D 모델

기준	이미지 검색 기반 (VPR)	3D 모델 기반
핵심 원리	대규모 DB에서 유사 이미지 검색	3D 모델과 2D 이미지 간의 정합
출력	주로 위치 좌표 (위도/경도), 때때로 대략적인 방향	정밀 6-DoF 카메라 포즈 (x, y, z, roll, pitch, yaw)
정밀도	수 미터 ~ 수십 미터 (장소 인식 수준)	센티미터 수준 (정밀 포즈 추정 수준)
초기 구축 비용	상대적 낮음 (기존 지오태깅 이미지 DB 활용 가능)	높음 (정밀 3D 모델링 및 유지보수 필요)
실시간 성능	빠름 (전역 기술자 벡터 검색)	상대적으로 느림 (2D-3D 매칭 및 포즈 최적화)
확장성	높음 (도시/국가/전 세계 단위로 확장 용이)	낮음 (특정 지역/건물 단위로 제한적)
시점 변화 강인성	딥러닝 모델로 상당 부분 극복 가능하나 한계 존재	강함 (3D 구조 정보를 직접 활용하므로 시점 변화에 덜 민감)
주요 응용	지오인텔리전스, 이미지 검색, 대략적 위치 추정	증강현실, 자율주행, 로보틱스 정밀 측위

3. VGL 성능을 극대화하는 핵심 기반 기술

Visual Geo-localization은 단독으로 존재하는 기술이 아니라, 컴퓨터 비전과 로보틱스 분야의 여러 핵심 기반 기술들과 긴밀하게 상호작용하며 발전해왔다. 특히 딥러닝을 통한 시각 정보 해석 능력, 다중 센서 융합을 통한 강인성 확보, 그리고 SLAM 기술을 통한 실시간 지도 작성 및 위치 추정 능력은 VGL의 성능을 현재 수준으로 끌어올린 세 개의 중요한 기둥이다.

3.1 딥러닝: 시각 정보 해석의 혁명, 합성곱 신경망(CNN)

딥러닝, 그 중에서도 특히 합성곱 신경망(CNN, Convolutional Neural Network)은 이미지와 같은 시각적 데이터를 처리하고 이해하는 방식에 혁명적인 변화를 가져왔다. CNN은 VGL 기술이 전통적인 특징점 기반 방식의 한계를 뛰어넘어, 복잡하고 다양한 환경 변화 속에서도 장소를 효과적으로 인식할 수 있게 만든 핵심 동력이다.

3.1.1 CNN의 본질과 핵심 원리

CNN은 이미지를 처리하기 위해 특별히 설계된 심층 신경망 아키텍처로, 동물의 시각 피질이 정보를 처리하는 방식에서 영감을 얻었다.15 기존의 신경망이 이미지를 1차원의 긴 벡터로 펼쳐서 처리함으로써 픽셀 간의 공간적 구조 정보를 잃어버리는 반면, CNN은 이미지의 2차원 또는 3차원 구조를 그대로 유지하면서 계층적으로 특징을 학습하는 것이 핵심이다. CNN은 주로 다음과 같은 핵심 구성 요소들로 이루어져 있다 16:

컨볼루션 레이어 (Convolutional Layer): CNN의 가장 핵심적인 연산층이다. ‘필터(Filter)’ 또는 ’커널(Kernel)’이라고 불리는 작은 크기의 행렬(예: 3×3)이 입력 이미지의 전체 영역을 일정한 간격(stride)으로 훑고 지나가면서 합성곱(convolution) 연산을 수행한다. 각 필터는 특정 시각적 패턴(예: 수직선, 수평선, 특정 색상의 엣지, 질감 등)을 감지하도록 학습된다. 네트워크의 초기 레이어에 있는 필터들은 이처럼 단순하고 기본적인 특징을 감지하고, 네트워크가 깊어질수록 이전 레이어에서 추출된 특징들을 조합하여 ‘눈’, ‘코’, ’바퀴’와 같이 더 복잡하고 추상적인 특징을 학습하게 된다. 이 과정을 통해 생성된 출력을 ’특징 맵(Feature Map)’이라고 한다.
풀링 레이어 (Pooling Layer): 컨볼루션 레이어 다음에 위치하며, 특징 맵의 공간적 크기를 줄이는(down-sampling) 역할을 한다. 주로 ’최대 풀링(Max Pooling)’이 사용되는데, 이는 특징 맵의 특정 구역(예: 2×2)에서 가장 큰 값(가장 강하게 활성화된 특징)만을 남기고 나머지는 버리는 방식이다. 풀링은 두 가지 중요한 목적을 가진다. 첫째, 데이터의 크기를 줄여 계산량을 감소시키고 모델의 파라미터 수를 줄여 과적합을 방지한다. 둘째, 특징의 정확한 위치보다는 존재 여부에 더 집중하게 만들어, 객체의 위치가 약간 변하더라도 모델이 강인하게 반응하도록 하는 ’위치 불변성(translation invariance)’을 부여한다.
완전 연결 레이어 (Fully Connected Layer): 여러 층의 컨볼루션과 풀링을 거쳐 추출된 고수준의 추상적 특징 맵은 1차원 벡터로 펼쳐진 후, 네트워크의 마지막 부분에 위치한 완전 연결 레이어로 전달된다. 이 레이어는 기존의 다층 퍼셉트론(MLP)과 동일한 구조로, 추출된 모든 특징들을 종합하여 최종적인 과업, 예를 들어 이미지를 특정 카테고리로 ’분류(classification)’하거나(예: 이 이미지는 ‘산’ 풍경일 확률 90%), 특정 수치를 ’회귀(regression)’하는(예: 이 이미지의 위도, 경도 좌표는 각각 37.5∘N, 126.9∘E이다) 역할을 수행한다.

3.1.2 기존 신경망 대비 CNN의 장점

CNN이 이미지 인식에서 탁월한 성능을 보이는 이유는 기존의 완전 연결 신경망(DNN)이 가진 근본적인 문제점들을 해결했기 때문이다 16:

파라미터 공유 (Parameter Sharing): DNN에서는 입력 뉴런과 출력 뉴런이 모두 연결되어 있어, 고해상도 이미지를 처리할 경우 파라미터(가중치)의 수가 기하급수적으로 폭증한다. 반면, CNN의 컨볼루션 레이어에서는 하나의 필터(커널)가 이미지의 전체 영역에 동일하게 적용된다. 즉, 이미지의 왼쪽 위에서 수직선을 감지하는 데 사용된 필터가 오른쪽 아래에서도 똑같이 수직선을 감지하는 데 사용된다. 이처럼 가중치를 공유함으로써 학습해야 할 파라미터의 수를 획기적으로 줄여, 학습 효율을 높이고 과적합(overfitting) 위험을 크게 낮춘다.
희소 연결 (Sparse Connectivity): DNN에서는 출력 뉴런 하나가 이전 레이어의 모든 입력 뉴런과 연결된다. 하지만 CNN의 컨볼루션 레이어에서는 출력 뉴런 하나(특징 맵의 한 픽셀)가 입력 이미지의 아주 작은 국소적 영역(필터의 크기)에만 연결된다. 이러한 희소 연결 구조는 이미지의 특징이 주변 픽셀들과의 관계에서 비롯된다는 ’지역성(locality)’을 효과적으로 활용하며, 계산 효율성을 높이는 데 기여한다.

3.1.3 VGL에서의 활용

VGL 분야에서 CNN은 단순히 이미지를 ’고양이’나 ’자동차’로 분류하는 것을 넘어, 장소의 고유한 시각적 정체성을 담은 ’지문(fingerprint)’을 생성하는 핵심 도구로 활용된다. VPR을 위한 전역 기술자(global descriptor)를 추출하는 것이 대표적인 예이다.8 잘 학습된 CNN 모델은 입력 이미지를 받아, 마지막 분류 레이어를 제거하고 그 이전의 고차원 특징 벡터를 추출함으로써, 해당 장소의 의미론적이고 구조적인 정보를 함축한 밀집 벡터(dense vector)를 생성할 수 있다. 이 외에도 CNN은 위성 영상에서 별들의 패턴을 인식하여 위성의 자세를 추정하거나 17, 경관 이미지의 미학적 특성을 분석하는 등 19 다양한 시각 기반 위치 및 상태 추정 문제에 폭넓게 적용되고 있다.

3.2 센서 융합: 시각 정보의 한계를 넘어서는 VIO (Visual-Inertial Odometry)

카메라만을 이용한 시각적 위치 추정은 많은 장점을 가지지만, 현실 세계의 다양한 제약 조건 앞에서는 한계를 드러낸다. VIO(Visual-Inertial Odometry)는 이러한 시각 센서의 단점을 관성측정장치(IMU)와의 긴밀한 융합을 통해 극복하는 기술로, 강인하고 연속적인 위치 추정을 위한 필수적인 기술로 자리 잡았다.

3.2.1 상호 보완의 필요성

카메라와 IMU는 서로의 약점을 완벽하게 보완해주는 상호 보완적인(complementary) 특성을 가진다.20

카메라(Visual)의 한계: 시각 기반 위치 추정은 주변 환경에 식별 가능한 텍스처(texture)나 특징점이 풍부해야 잘 작동한다. 따라서 텍스처가 거의 없는 하얀 벽, 반복적인 패턴이 많은 복도, 또는 어두워서 아무것도 보이지 않는 환경에서는 추적이 실패하기 쉽다.21 또한, 카메라가 매우 빠르게 움직일 때 발생하는 모션 블러(motion blur) 현상은 특징점 추출을 방해하여 위치 추정의 정확도를 크게 떨어뜨린다.
IMU(Inertial Measurement Unit)의 한계: IMU는 가속도계(accelerometer)와 자이로스코프(gyroscope)로 구성되어, 외부 환경과 상관없이 기기 자체의 가속도와 각속도를 측정한다. 이 측정값은 초당 수백 번(200Hz 이상)의 매우 빠른 주기로 얻을 수 있어, 순간적인 움직임 변화에 매우 민감하게 반응할 수 있다.23 하지만 IMU의 치명적인 단점은 측정값에 필연적으로 포함된 미세한 노이즈(noise)와 편향(bias)이 시간에 따라 적분되는 과정에서 계속 누적되어, 실제 위치와의 오차가 눈덩이처럼 불어나는 ‘누적 오차(drift)’ 문제를 가진다는 것이다.23 즉, IMU만으로는 단 몇 초만 지나도 실제 위치에서 수 미터 이상 벗어날 수 있다.

3.2.2 VIO의 원리: 시너지를 통한 약점 극복

VIO는 이처럼 상반된 특성을 가진 두 센서를 융합하여, 각 센서가 단독으로 가질 수 없는 강력한 성능을 발휘하게 하는 기술이다.23

IMU가 카메라를 돕는 방식: 카메라가 빠르게 회전하여 모션 블러가 심하게 발생하거나, 프레임 간의 시각적 변화가 너무 커서 특징점 추적을 놓쳤을 때, IMU의 고속 측정값은 그 사이의 움직임에 대한 매우 정확한 초기 추정치를 제공한다. 이 정보를 활용하면 다음 프레임에서 특징점이 나타날 위치를 예측할 수 있어, 훨씬 더 강인한 특징점 추적을 가능하게 한다. 또한, IMU는 중력 가속도를 측정할 수 있으므로, 시스템의 절대적인 수직 방향(roll, pitch)과 실제 세계의 스케일(scale)을 결정하는 데 도움을 준다.
카메라가 IMU를 돕는 방식: 반대로, 카메라는 주변 환경의 정적인 랜드마크(건물 모서리, 표지판 등)를 관찰하여 외부 세계에 대한 절대적인 참조점을 제공한다. 이를 통해 시간이 지남에 따라 계속해서 쌓이는 IMU의 누적 오차를 주기적으로 보정하고 드리프트를 억제하는 역할을 한다. 즉, 시각 정보가 IMU의 오차를 ’리셋’해주는 셈이다.

3.2.3 융합 기법

이 두 센서의 측정값을 융합하는 데에는 주로 통계적 필터링 기법이나 최적화 기반의 기법이 사용된다. 확장 칼만 필터(EKF, Extended Kalman Filter)는 IMU의 측정값을 이용해 로봇의 상태를 예측(prediction)하고, 카메라의 관측값을 이용해 예측된 상태를 보정(update)하는 과정을 반복하는 대표적인 필터 기반 융합 방식이다.23 최근에는 일정 시간 동안의 모든 센서 측정값과 상태 변수 간의 관계를 하나의 큰 ’팩터 그래프(Factor Graph)’로 모델링하고, 전체 오차를 최소화하는 상태를 찾는 최적화 기반의 방식이 더 높은 정확도를 보여주며 널리 사용되고 있다.21 이러한 융합을 통해 탄생한 VIO 시스템은 카메라나 IMU를 단독으로 사용하는 것에 비해 훨씬 더 정확하고(accurate), 강인하며(robust), 환경 변화에 구애받지 않는 연속적인(continuous) 6자유도 위치 및 자세 추정을 가능하게 한다.22

3.3 SLAM: 실시간 지도 작성과 동시적 위치 추정

SLAM(Simultaneous Localization and Mapping)은 VGL과 매우 밀접한 관련이 있으며, 종종 VGL 기술의 일부로 활용되거나 VGL을 위한 기반을 제공하는 역할을 한다. SLAM은 그 이름에서 알 수 있듯이, 로봇이나 기기가 GPS나 사전에 제작된 지도 없이 완전히 미지의 환경을 탐색하면서, ’실시간으로 주변 환경의 지도를 작성하는(Mapping) 과정’과 ’그 지도상에서 자신의 현재 위치를 추정하는(Localization) 과정’을 동시에 수행하는 기술이다.26

3.3.1 Visual SLAM (VSLAM)

SLAM은 라이다(LiDAR), 레이더, 초음파 등 다양한 센서를 사용할 수 있지만, 주된 센서로 카메라를 사용하는 경우를 특별히 Visual SLAM (VSLAM)이라고 부른다.27 VSLAM 시스템은 카메라로 연속적으로 촬영되는 이미지 프레임들 간의 기하학적 관계를 분석하여 카메라의 움직임(egomotion)을 추정한다. 그리고 이 추정된 움직임을 누적하여 카메라의 궤적을 만들고, 동시에 각 프레임에서 관찰된 특징점들을 3차원 공간에 배치하여 포인트 클라우드나 특징점 기반의 지도를 점진적으로 생성해 나간다.29

3.3.2 VGL과 SLAM의 상호의존적 관계

VGL과 SLAM은 서로 다른 문제를 푸는 것처럼 보이지만, 실제 시스템에서는 매우 긴밀하게 얽혀 상호 의존적인 관계를 형성한다.

VGL as Loop Closing in SLAM: SLAM 기술의 가장 큰 고질적인 문제는 VIO와 마찬가지로 ’누적 오차(drift)’이다. 로봇이 넓은 공간을 오랫동안 주행하다 보면, 매 순간 발생하는 작은 추정 오차들이 계속해서 쌓여 결국 지도가 뒤틀리거나 실제 위치와 추정 위치 간의 차이가 커지게 된다. 이때, SLAM 시스템의 정확도를 비약적으로 향상시키는 핵심적인 과정이 바로 ’루프 클로징(Loop Closing)’이다.11 루프 클로징은 로봇이 이전에 방문했던 장소를 다시 방문했을 때, “아, 여기는 내가 아까 왔던 곳이구나!“라고 인식하는 과정이다. 이 ’장소 인식’이야말로 VPR, 즉 VGL의 핵심 기술이다. 현재 위치의 이미지가 이전에 지도에 등록된 장소의 이미지와 동일하다는 것을 VGL 기술로 인식하게 되면, 시스템은 그동안 누적된 오차를 계산하여 지도 전체를 전역적으로 최적화하고 뒤틀림을 바로잡을 수 있다. 즉, VGL은 SLAM의 장기적인 정확도를 보장하는 핵심 부품 역할을 한다.
SLAM as Map Builder for VGL: 반대로, SLAM 기술은 3D 모델 기반 VGL에서 사용할 3D 모델이나 시각적 지도를 구축하는 데 직접적으로 사용될 수 있다.26 특히, 사전에 오프라인으로 지도를 만드는 SfM과 달리, 온라인 SLAM은 실시간으로 주변 환경을 매핑하므로, 환경이 계속해서 변하는 동적인 상황에 대응하는 지도를 만드는 데 유리하다. 예를 들어, 증강현실 앱은 처음 실행될 때 SLAM 기술을 이용해 사용자의 방을 실시간으로 매핑하고, 이렇게 생성된 지도는 이후 VGL(또는 VPS)이 사용자의 위치를 다시 찾거나 다른 사용자와 공간을 공유하는 데 사용된다.

이처럼 VGL, VIO, SLAM은 개별적으로 존재하는 기술이 아니라, 현대 자율 지능 시스템의 ‘인식(Perception)’ 스택을 구성하는 상호 의존적인 세 개의 기둥이라고 할 수 있다. 이들의 관계는 선형적이지 않고 순환적이다. VIO는 SLAM 시스템에 프레임 간의 정밀한 상대적 움직임 정보(odometry)를 제공하는 입력 소스가 된다. SLAM은 VIO를 통해 얻은 움직임을 통합하여 지도를 만들고, VGL(장소 인식) 기술을 활용하여 루프를 닫거나 사전에 만들어진 전역 지도에 자신을 재위치(re-localization)시킨다. 그리고 SLAM을 통해 생성된 지도는 다시 VGL이 위치를 추정하는 데 사용되는 데이터베이스가 된다. 자율주행차, 증강현실 글래스, 자율 비행 드론과 같은 복잡한 시스템이 어떻게 세상을 인식하고 그 안에서 자신의 위치를 파악하는지를 온전히 이해하기 위해서는, 이 세 가지 기술이 어떻게 유기적으로 결합되어 작동하는지를 함께 이해하는 것이 필수적이다.

4. Visual Geo-localization의 응용 분야: 가상과 현실을 잇는 기술

Visual Geo-localization 기술은 더 이상 학술 연구의 영역에만 머물러 있지 않다. 이 기술은 이미 우리 삶의 다양한 측면에 깊숙이 파고들어 새로운 경험을 창출하고 산업의 패러다임을 바꾸고 있다. 자율주행 자동차의 눈이 되어 정밀한 주행을 가능하게 하고, 증강현실을 통해 현실 공간에 디지털 정보를 덧입히며, 수많은 로봇들에게 자율적인 이동 능력을 부여하고 있다.

4.1 자율주행: 정밀 측위의 핵심

자율주행 기술의 성공은 차량이 현재 자신의 위치를 얼마나 정확하게 아는지에 달려있다. GPS만으로는 차선 변경이나 정밀한 경로 제어에 필요한 센티미터 수준의 정확도를 달성할 수 없다. VGL은 바로 이 ‘초정밀 측위(High-Precision Localization)’ 문제를 해결하는 핵심 기술로 부상했다.

HD맵 기반 정밀 측위: 자율주행차는 우리가 흔히 사용하는 내비게이션 지도가 아닌, 차선, 도로 경계, 신호등, 표지판, 연석 등 도로의 모든 정적 요소가 센티미터 단위로 정밀하게 기록된 ’고정밀 지도(HD Map)’를 사용한다. VGL은 자율주행차에 장착된 카메라가 실시간으로 촬영하는 주변 영상과 HD맵에 저장된 방대한 시각 정보를 비교하고 정합하는 역할을 한다.13 이를 통해 차량이 현재 HD맵 상의 ’몇 번째 차선의 어느 지점’에 있는지를 오차 범위 수 센티미터 이내로 정확하게 특정할 수 있다. 이는 GPS의 오차 범위를 훨씬 뛰어넘는 수준의 정밀도로, 안전한 자율주행을 위한 필수 조건이다.
네이버랩스의 서울시 3D 모델링 사례: VGL 기술의 상용화 가능성을 보여주는 대표적인 사례는 네이버랩스의 대규모 도시 3D 모델링 프로젝트이다. 네이버랩스는 항공사진 약 25,000장과 자체 개발한 AI 기반 항공사진 처리 기술을 결합하여, 605 km2에 달하는 서울시 전역과 그 안에 위치한 건물 60만 동을 모두 포함하는 거대하고 정밀한 3D 모델을 성공적으로 구축했다.13 이 3D 모델은 단순히 도시를 시각적으로 재현하는 것을 넘어, 도로 위를 달리는 배달 로봇이나 자율주행차를 위한 HD맵을 제작하고 고도화하는 핵심 기반 데이터로 사용된다. 또한, 네이버랩스는 이 데이터를 활용하여 VGL 및 비주얼 맵핑(Visual Mapping) 기술의 위치 정확도를 개선하는 연구를 수행하고 있다.13 이는 VGL 기술이 특정 지역을 넘어 대규모 도시 단위로 확장되고 상용화될 수 있음을 명확히 보여주는 사례이다.
안전성 확보: VGL은 특히 GPS 음영 지역에서 자율주행의 연속성과 안전성을 보장하는 데 결정적인 역할을 한다. 도심의 고층 빌딩 숲, 긴 터널, 지하차도 등 GPS 신호가 단절되는 구간에서 VGL은 사실상 유일한 고정밀 측위 수단이 될 수 있다. 물론, 테슬라의 사례에서 볼 수 있듯이 카메라 기반의 인식 시스템은 악천후나 야간과 같은 저조도 환경에서 성능이 저하될 수 있다는 한계를 가진다.32 하지만 현대의 자율주행 시스템은 VGL을 라이다(LiDAR), 레이더, IMU 등 다른 센서와 융합하는 ‘센서 퓨전’ 접근법을 통해 이러한 단점을 상호 보완하며, 어떠한 주행 환경에서도 강인하고 신뢰할 수 있는 위치 인식 능력을 확보해 나가고 있다.

4.2 증강현실(AR): 현실 공간과 디지털 콘텐츠의 결합

증강현실(AR)의 핵심은 디지털로 생성된 가상의 정보나 객체를 사용자가 보고 있는 현실 세계 위에 자연스럽게 겹쳐서 보여주는 것이다. 이때 가상 객체가 현실 공간의 특정 위치에 정확히 ’고정(anchor)’되어, 사용자가 움직이거나 시점을 바꿔도 흔들리거나 어긋나지 않아야 진정한 몰입감을 제공할 수 있다. 이 문제를 해결하는 기술이 바로 VGL에 기반한 VPS(Visual Positioning System)이다.

VPS (Visual Positioning System)의 역할: VPS는 VGL 기술을 활용하여 사용자의 스마트폰이나 AR 글래스와 같은 디바이스가 현실 세계의 ’어디에서(위치) 어느 방향을 보고 있는지(방향)’를 매우 정밀하게 파악하는 기술이다.4 VPS는 디바이스의 카메라로 보이는 장면을 사전에 구축된 3D 공간 맵과 실시간으로 비교하여, 센티미터 수준의 정확도로 6자유도 포즈를 계산한다. 이 정밀한 포즈 정보를 바탕으로 가상의 포켓몬스터 캐릭터가 실제 길바닥 위에 그림자와 함께 서 있게 만들거나 35, AR 내비게이션의 화살표를 사용자가 걸어가야 할 실제 보도 위에 정확하게 그려줄 수 있다.
GPS와의 차별점: GPS는 실내에서 사용이 불가능하고, 실외에서도 수 미터의 오차가 있으며 사용자의 정확한 시선 방향까지는 알기 어렵다. 이 때문에 초기 위치 기반 AR 게임들은 가상 객체가 공중에 붕 떠 있는 등 어색한 경험을 제공했다. 반면, VPS는 실내외를 가리지 않고 센티미터 단위의 정밀 측위와 1도 미만의 방향 인식이 가능하여, 가상과 현실이 완벽하게 결합된 듯한 훨씬 더 높은 수준의 몰입감과 상호작용을 제공한다.4
상용화 사례:
AR 내비게이션: 구글 지도의 ‘라이브 뷰(Live View)’ 기능은 VPS를 활용한 대표적인 상용 서비스이다. 사용자가 스마트폰 카메라로 주변을 비추면, VPS가 현재 위치와 방향을 인식하여 가야 할 방향을 알려주는 화살표와 상점 정보 등을 실제 거리 풍경 위에 직접 띄워준다.
위치 기반 AR 콘텐츠: VPS는 특정 장소에 방문해야만 경험할 수 있는 독점적인 AR 콘텐츠를 구현하는 데 활용된다. 예를 들어, 박물관의 특정 유물 앞에 서야만 해당 유물에 대한 AR 설명이 나타나게 하거나, 특정 관광지에서만 AR 캐릭터와 사진을 찍을 수 있는 이벤트를 만들 수 있다. XR 기업 디자이니움과 파운드앳의 협력은 전 세계 80개국 이상의 특정 지리적 위치에 정밀하게 AR 콘텐츠를 배치하고 공유하는 글로벌 규모의 서비스를 개발한 사례를 보여준다.34
공간 매핑 및 공유 AR: Apple의 ARKit, Google의 ARCore와 같은 최신 AR 플랫폼들은 SLAM과 VPS 기술을 결합하여 한 단계 더 나아간 경험을 제공한다.30 사용자는 자신의 스마트폰으로 주변 공간(예: 거실)의 3D 맵을 실시간으로 생성할 수 있다. 그리고 이 맵 데이터를 클라우드에 업로드하여 다른 사용자와 공유하면, 여러 사람이 각자의 디바이스를 통해 동일한 AR 객체(예: 가상 테이블 위의 체스 게임)를 현실 공간의 똑같은 위치에서 함께 보고 상호작용하는 ‘공유 AR(Shared AR)’ 경험이 가능해진다.

4.3 로보틱스: 자율 이동 로봇의 눈

가정, 공장, 식당, 병원 등 다양한 공간에서 활용되는 자율 이동 로봇(Autonomous Mobile Robot, AMR)에게 SLAM 기술은 스스로 움직이기 위한 필수적인 두뇌와 같다.27 VGL 기술, 특히 카메라를 주 센서로 사용하는 Visual SLAM은 로봇 기술의 대중화를 이끄는 핵심 동력 중 하나이다.

Visual SLAM의 경제성과 범용성: 전통적으로 로봇의 SLAM에는 360도 레이저를 발사하여 거리를 정밀하게 측정하는 라이다(LiDAR) 센서가 많이 사용되었다. LiDAR SLAM은 정확도가 매우 높지만, 센서 자체의 가격이 비싸다는 단점이 있다.28 이 때문에 로봇의 전체 생산 비용이 증가하여 대중화에 걸림돌이 되기도 했다. 반면, Visual SLAM은 이미 널리 보급되어 가격이 매우 저렴한 카메라를 주 센서로 사용한다.27 이 경제적인 이점 덕분에 로봇 청소기, 서빙 로봇, 소형 배송 드론과 같이 가격 경쟁력이 중요한 상용 로봇 제품에 SLAM 기술을 널리 탑재할 수 있게 되었다.
다양한 활용 분야:
가정용 로봇: 로봇 청소기는 VSLAM의 가장 성공적인 상용화 사례 중 하나이다. 로봇 청소기는 천장에 달린 카메라로 집안의 특징점(조명, 몰딩 등)을 촬영하고 분석하여 집 전체의 구조를 지도로 만든다. 이 지도를 바탕으로 가장 효율적인 청소 경로를 계획하고, 이미 청소한 구역과 아직 청소하지 않은 구역을 구분하며, 충전 스테이션으로 스스로 복귀한다.27
물류 및 산업 로봇: 아마존 물류창고의 로봇 ’키바(KIVA)’가 보여주었듯이, SLAM 기반의 로봇들은 더 이상 바닥에 그려진 선을 따라 움직이지 않는다.37 이들은 넓고 복잡한 창고나 공장 내부를 스스로 탐색하며 실시간으로 최적의 경로를 찾아 물품을 운반하고 재고를 관리하며, 물류 및 제조 자동화의 혁신을 이끌고 있다.36
의료 로봇: 수술 로봇이 VSLAM 기술을 활용하여 환자의 신체 내부를 3차원 구조로 정밀하게 매핑하고, 내시경 카메라와 수술 도구의 위치를 실시간으로 추적한다. 이를 통해 의사는 더 정확한 위치에서 최소한의 절개로 수술을 진행할 수 있어, 최소 침습 수술(MIS)의 정확도와 안전성을 획기적으로 높일 수 있다.37
드론: 드론은 GPS 신호가 잡히지 않는 실내 공간이나 교량 하부, 터널 내부와 같이 복잡하고 위험한 구조물을 검사하는 임무에 투입된다. 이때 드론은 VSLAM 기술을 이용해 주변 환경을 인식하고 충돌을 피하며 자율적으로 비행하고, 동시에 검사 대상의 3D 모델을 생성하여 시설물의 안전 진단에 활용한다.37

4.4 기타 혁신적 응용

VGL 기술의 잠재력은 앞서 언급된 주요 분야에만 국한되지 않는다. 다른 기술과의 융합을 통해 새로운 가치를 창출하거나, 엔터테인먼트 및 콘텐츠 분야에서 독창적인 방식으로 활용되기도 한다.

시맨틱 정보와의 결합: VGL은 순수한 시각적 특징점을 넘어, 이미지에 포함된 ‘의미(semantic)’ 정보와 결합될 때 더욱 강력해진다. 한 연구에서는 이미지 속의 간판이나 도로 표지판에 적힌 텍스트를 OCR(광학 문자 인식) 기술로 읽어내고, 이 텍스트(예: “충북대학교 정문”)를 지오코딩(Geocoding) API에 입력하여 정확한 GPS 좌표를 얻는 경로 안내 시스템을 제안했다.3 이는 시각적 특징이 부족하거나 유사한 장소가 많은 환경에서 텍스트라는 명확한 의미 정보를 활용하여 위치 추정의 정확도를 높이는 새로운 방향을 제시한다.
콘텐츠 생성 및 엔터테인먼트: VGL 기술은 분석 도구를 넘어 창의적이고 지능적인 콘텐츠를 생성하는 데에도 활용될 수 있다. 사용자가 촬영한 사진에 담긴 시각적 내용(예: 해변 풍경, 음식)과 위치 정보를 종합적으로 분석하여, “해운대 해수욕장에서 친구들과 즐거운 시간을 보냈다“와 같은 문장이 포함된 일기를 자동으로 생성해주는 기술이 제안되었다.38 또한, 구글 스트리트 뷰의 한 장면을 무작위로 보여주고 그 장소의 위치를 맞추는 게임인 ’지오게서(GeoGuessr)’에서, 인간 세계 챔피언을 꺾은 AI는 VGL 기술의 정점을 보여주는 사례이다.39 이 AI는 이미지의 미세한 단서들(식생, 도로 표지판 언어, 자동차 번호판 스타일 등)을 분석하여 놀라운 정확도로 촬영 위치를 추론한다.

이처럼 VGL 기술의 상용화와 확산은 단순히 알고리즘의 기술적 정밀도에 의해서만 결정되지 않는다. 각 응용 분야의 경제적 요구사항과 가용한 데이터 인프라라는 현실적인 조건이 중요한 역할을 한다. 자율주행이나 산업용 AR과 같이 높은 투자수익률(ROI)이 기대되고 안전이 최우선인 분야에서는 고가의 라이다 센서를 사용하거나 정밀한 3D 모델을 구축하는 높은 비용이 정당화된다. 여기서는 ’정밀도’가 기술 채택의 핵심 동인이다. 반면, 로봇 청소기나 개인용 AR 앱과 같은 대중 소비자 시장에서는 ’경제성’이 무엇보다 중요하다. 수백만 원짜리 라이다 센서를 30만 원짜리 로봇 청소기에 탑재할 수는 없기 때문이다. 바로 이러한 이유로 저렴한 카메라를 활용하는 VSLAM이나 VPS 기술이 이 시장에서 폭넓게 채택되고 기술 발전을 견인하고 있다. 더 나아가, 네이버나 구글과 같은 거대 플랫폼 기업들이 VGL 분야를 선도하는 근본적인 이유는, 그들이 이미 전 세계를 커버하는 방대한 양의 지오태깅된 이미지(스트리트 뷰, 항공사진)와 이를 처리할 수 있는 강력한 AI 인프라, 즉 독점적인 ’데이터 생태계’를 보유하고 있기 때문이다. VGL은 본질적으로 데이터에 기반한 기술이며, 이 생태계를 장악한 기업이 기술 개발과 상용화 경쟁에서 압도적으로 유리한 위치를 점하게 되는 구조이다.

Table 3: VGL 주요 응용 분야별 기술 요구사항

응용 분야	핵심 목표	요구 정밀도	요구 실시간성	주로 사용되는 기술 조합
자율주행	HD맵 상에서의 차선 단위 정밀 측위	< 10 cm, < 0.5도	매우 높음 (< 10 ms)	3D 모델 기반 VGL + LiDAR/IMU 센서 퓨전, HD맵
증강현실 (VPS)	현실 공간에 가상 객체를 흔들림 없이 고정	< 5 cm, < 1도	높음 (< 30 ms)	Visual SLAM + 3D 모델 기반 VGL, 클라우드 앵커
로보틱스	자율 항법, 경로 계획, 장애물 회피	5-20 cm (작업에 따라 상이)	중간 ~ 높음	Visual SLAM (LiDAR SLAM과 병용), VIO
지오인텔리전스	이미지/비디오의 촬영 출처 위치 파악	도시/지역 단위 (정밀도보다 범위가 중요)	실시간성 낮음 (오프라인 분석 가능)	이미지 검색 기반 VPR, 파운데이션 모델

5. 결론: 도전 과제와 미래 전망

Visual Geo-localization 기술은 지난 10년간 괄목할 만한 발전을 이루며 다양한 산업 분야에 혁신을 가져왔지만, 인간 수준의 완벽한 공간 인지 능력을 갖추기까지는 여전히 해결해야 할 기술적, 사회적 과제들이 남아있다. 이러한 도전 과제를 극복하고 미래 기술 트렌드와 융합하는 과정에서 VGL은 더욱 지능적이고 범용적인 기술로 진화할 것이다.

5.1 기술적 도전 과제: 강인성을 향한 끊임없는 탐구

VGL 기술이 현실 세계에서 더욱 신뢰성 있게 작동하기 위해 극복해야 할 주요 기술적 난제는 다음과 같다.

극심한 외형 변화 (Extreme Appearance Changes): VGL의 가장 근본적이면서도 어려운 난제는 동일한 장소가 시간의 흐름에 따라 시각적으로 극적인 변화를 겪는 문제이다.8 여름의 무성한 녹음과 겨울의 앙상한 나뭇가지는 같은 장소를 전혀 다른 곳처럼 보이게 한다. 맑은 날의 선명한 풍경과 폭우 속의 흐릿한 시야, 환한 대낮과 어두운 밤의 조명 변화는 이미지의 색상, 질감, 특징점을 완전히 바꿔놓아 기존의 매칭 알고리즘을 무력화시킨다. 이러한 극심한 외형 변화에도 불구하고 장소의 본질적인 정체성을 인식하는 강인한(robust) 알고리즘 개발은 VGL 연구의 영원한 숙제이다.
대규모 데이터베이스 문제: 이미지 검색 기반의 VPR 시스템은 수억, 수십억 장에 달하는 방대한 데이터베이스를 효율적으로 검색하고, 이를 최신 상태로 유지해야 하는 현실적인 부담을 안고 있다. 도시의 풍경은 끊임없이 변화한다. 새로운 건물이 들어서고, 기존 건물이 철거되며, 도로가 새로 생긴다. 이러한 도시의 동적인 변화를 어떻게 실시간으로 감지하고 데이터베이스에 신속하게 반영할 것인가는 대규모 VGL 서비스를 운영하는 데 있어 매우 중요한 과제이다.
동적 객체 (Dynamic Objects) 처리: VGL은 기본적으로 정적인(static) 배경을 기반으로 위치를 추정한다. 하지만 현실 세계는 도로 위를 달리는 수많은 자동차, 거리를 오가는 행인, 바람에 흔들리는 나뭇잎 등 수많은 동적 객체들로 가득 차 있다. 이러한 움직이는 객체들은 위치 추정 과정에서 ’노이즈’로 작용하여 정확도를 심각하게 저해하는 요인이 된다.8 따라서 동적 객체를 효과적으로 식별하여 매칭 과정에서 제외하거나, 혹은 더 나아가 이들의 움직임을 예측하여 모델에 반영하는 고도화된 기술이 요구된다. SVS-VPR과 같은 최신 연구에서는 딥러닝 기반의 시맨틱 분할(semantic segmentation) 기술을 활용하여 이미지에서 사람, 자동차와 같은 동적 객체 영역을 먼저 식별하고 필터링한 뒤, 건물이나 도로와 같은 정적 배경 정보에만 집중하여 매칭을 수행하는 방식으로 이 문제를 해결하려는 시도가 이루어지고 있다.14

5.2 사회적 및 윤리적 고려사항: 기술의 양면성

VGL 기술의 발전은 편리함과 효율성이라는 긍정적인 측면과 함께, 심각한 사회적, 윤리적 문제를 야기할 수 있는 양면성을 지니고 있다.

프라이버시 침해와 감시 사회: VGL은 소셜 미디어에 올라온 사진 한 장만으로 개인의 현재 위치나 과거 동선을 특정할 수 있는 매우 강력한 기술이다. 이러한 능력은 악용될 경우, 정부나 거대 기업에 의한 대규모 국민 감시, 특정 개인에 대한 스토킹, 원치 않는 신상 정보 노출 등 심각한 사생활 침해 문제로 이어질 수 있는 잠재적 위험을 내포하고 있다.39
책임 있는 AI 개발 (Responsible AI): 이러한 잠재적 위험성을 인지한 일부 연구자들은, 자신들이 개발한 강력한 VGL 모델이 악용될 소지가 있다는 이유로 모델의 코드나 가중치 전체를 대중에게 공개하지 않는 결정을 내리기도 했다.39 이는 기술 개발자들에게도 ’책임 있는 AI’에 대한 윤리적 고민이 중요해졌음을 보여준다. 앞으로 VGL 기술의 발전과 함께, 기술의 오남용을 방지하기 위한 법적, 제도적 장치를 마련하고, 개인정보를 보호하면서 기술의 혜택을 누릴 수 있는 프라이버시 보존 기술(예: 데이터 비식별화, 연합 학습)에 대한 사회적 논의와 기술적 연구가 반드시 병행되어야 한다.

5.3 미래 연구 방향: 시맨틱과 범용성을 향하여

이러한 도전 과제들을 해결하기 위한 노력 속에서 VGL의 미래 연구는 다음과 같은 방향으로 나아갈 것으로 전망된다.

시맨틱 VGL (Semantic VGL): 미래의 VGL은 단순히 픽셀의 색상이나 기하학적 패턴을 맞추는 저수준의 매칭을 넘어, 이미지에 담긴 ’의미(semantic)’를 깊이 이해하는 방향으로 발전할 것이다. 장면 속에 존재하는 객체(‘자동차’, ‘나무’, ‘벤치’), 표지판에 적힌 텍스트(‘서울역’, ‘광화문’), 그리고 장면 전체의 맥락(‘해변’, ‘도심 상업지구’, ‘한적한 주택가’)과 같은 고수준의 시맨틱 정보를 위치 추론에 적극적으로 활용하는 연구가 활발히 진행되고 있다.3 이러한 접근법은 인간이 낯선 장소를 찾고 기억하는 방식(예: “그 카페는 스타벅스 옆 건물이고, 길 건너편에 우체국이 있어”)과 더욱 유사하며, 극심한 외형 변화에도 훨씬 더 강인한 성능을 보일 것으로 기대된다.
파운데이션 모델의 진화: 특정 데이터셋이나 특정 작업에만 고도로 전문화된 ’전문가 모델’에서 벗어나, 다양한 환경과 조건에서 추가 학습 없이도 준수한 성능을 내는 ’범용 인공지능(AGI)’에 가까운 모델로의 전환이 가속화될 것이다. DINOv2와 같은 파운데이션 모델을 VPR에 적용한 연구들은 8 이러한 흐름을 주도하고 있다. 앞으로는 더 적은 양의 데이터로 더 빠르게 새로운 환경에 적응하는 ’퓨샷 학습(few-shot learning)’이나 ‘제로샷 학습(zero-shot learning)’ 능력을 갖춘 VGL 모델이 등장하여, 3D 모델 구축이나 데이터 수집 비용을 획기적으로 낮출 것이다.
실시간 디지털 트윈 (Real-time Digital Twin) 구축: VGL, SLAM, 그리고 초고속/초저지연 5G 통신 기술이 결합되면서, 물리적인 현실 세계를 실시간으로 복제한 가상의 ’디지털 트윈(Digital Twin)’을 구축하고 상호작용하는 시대가 열릴 것이다. VGL 기술은 현실 세계의 수많은 IoT 센서, 자율주행차, 드론, 심지어 개개인의 스마트폰으로부터 수집되는 시각 정보를 디지털 트윈 지도 위의 정확한 위치에 매핑하는 역할을 수행한다. 이렇게 구축된 실시간 디지털 트윈을 통해 도시 전체의 교통 흐름을 시뮬레이션하여 최적화하거나, 재난 상황을 예측하고 대응 훈련을 하는 등, VGL의 응용 범위는 단순한 위치 추정을 넘어 도시 관리 및 시뮬레이션 플랫폼으로까지 무한히 확장될 것이다.13 네이버랩스가 서울시와 함께 구축하고 있는 ‘버추얼 서울(Virtual Seoul)’ 플랫폼은 이러한 미래의 청사진을 보여주는 중요한 초기 단계의 사례이다.13

궁극적으로 VGL 기술의 발전 경로는 단순히 정확한 좌표를 출력하는 정교한 ’계산기’를 만드는 과정이 아니다. 이는 주변 환경의 시각적 정보를 바탕으로 그 의미를 이해하고, 과거의 경험을 기억하며, 현재 상태를 추론하는 인간의 고유한 공간 인지 능력을 기계로 구현하고, 나아가 이를 뛰어넘으려는 ’인공 공간 지능(Artificial Spatial Intelligence)’을 향한 장대한 여정으로 해석할 수 있다. 현재의 VGL 연구가 외형 변화에 대한 ’불변성(invariance)’을 확보하는 데 초점을 맞추고 있다면, 미래의 시맨틱 VGL은 객체 간의 ’관계’와 ’맥락’을 이해하는 단계로 나아갈 것이다. 더 나아가 파운데이션 모델의 활용은 세상에 대한 ’일반적인 지식’을 바탕으로 ’상식적인 추론’까지 가능하게 할 잠재력을 품고 있다. 이러한 인공 공간 지능은 자율주행, 로보틱스, 증강현실을 넘어, 인간과 기계가 물리적 현실 공간에서 상호작용하는 모든 방식의 근간을 이루는 핵심 기술로 자리매김할 것이다.

6. 참고 자료

[2204.02287] Rethinking Visual Geo-localization for Large-Scale Applications - arXiv, accessed July 1, 2025, https://arxiv.org/abs/2204.02287
Visual Geo-Localization from images - arXiv, accessed July 1, 2025, https://arxiv.org/html/2407.14910v1
이미지 기반 텍스트 인식과 GPS 좌표 변환을 활용한 경로 안내 시스템 …, accessed July 1, 2025, https://conf.kics.or.kr/2024f/media?key=site/2024f/abs/0208-JIHDT.pdf
맥스트, 공간 기반 AR 플랫폼 기술 공개 - 전자신문, accessed July 1, 2025, https://m.etnews.com/20210209000119?obj=Tzo4OiJzdGRDbGFzcyI6Mjp7czo3OiJyZWZlcmVyIjtOO3M6NzoiZm9yd2FyZCI7czoxMzoid2ViIHRvIG1vYmlsZSI7fQ%3D%3D
여기에 제목을 입력해 주세요, accessed July 1, 2025, https://www.kibme.org/resources/journal/20230817150716998.pdf
Visual Place Recognition - Papers With Code, accessed July 1, 2025, https://paperswithcode.com/task/visual-place-recognition
[논문]이미지 및 기하 특징 정보를 이용한 위치 인식에 관한 연구, accessed July 1, 2025, https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=DIKO0014020939
Visual place recognition using vision foundation model, accessed July 1, 2025, https://vds.sogang.ac.kr/wp-content/uploads/2024/06/2024_%EC%97%AC%EB%A6%84%EC%84%B8%EB%AF%B8%EB%82%98_%EA%B9%80%EB%8F%99%EA%B7%9C.pdf
[CV] SFM (Structure From Motion) : 연속된 2D 이미지들로 카메라 포즈와 3D shape 재구성하기, accessed July 1, 2025, https://mvje.tistory.com/92
KR102615412B1 - 비주얼 로컬라이제이션을 수행하기 위한 방법 및 장치 - Google Patents, accessed July 1, 2025, https://patents.google.com/patent/KR102615412B1/ko
Structure from Motion (SFM) - 외쳐갓우찬 - 티스토리, accessed July 1, 2025, https://woochan-autobiography.tistory.com/944
Revisit Anything: Visual Place Recognition via Image Segment Retrieval - arXiv, accessed July 1, 2025, https://arxiv.org/html/2409.18049v1
[백브리핑AI] 네이버랩스, 자율주행 시대를 앞당기다! - 인포스탁데일리, accessed July 1, 2025, https://www.infostockdaily.co.kr/news/articleView.html?idxno=98274
SVS-VPR: A Semantic Visual and Spatial Information-Based … - MDPI, accessed July 1, 2025, https://www.mdpi.com/1424-8220/24/3/906
이미지 인식 기술 심층 분석: AI 기반 활용 및 알고리즘, accessed July 1, 2025, https://www.toolify.ai/ko/ai-news-kr/ai-3531565
[딥러닝] CNN : 이미지 학습을 위한 신경망 (+ MNIST 손글씨 분류해보기), accessed July 1, 2025, https://sjh9708.tistory.com/223
딥러닝 기반의 CNN(Convolutional Neural Network) 알고리즘을 활용한 별 추적기 인식률 성능 연구, accessed July 1, 2025, https://www.jstna.org/archive/view_article?pid=jsta-5-1-23
[딥러닝/머신러닝] CNN(Convolutional Neural Networks) 쉽게 이해하기 - Medium, accessed July 1, 2025, https://halfundecided.medium.com/%EB%94%A5%EB%9F%AC%EB%8B%9D-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-cnn-convolutional-neural-networks-%EC%89%BD%EA%B2%8C-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-836869f88375
CNN 딥러닝을 활용한 경관 이미지 분석 방법 평가 - 힐링장소를 대상으로 - 한국조경학회지, accessed July 1, 2025, https://www.jkila.org/archive/view_article?pid=jkila-51-3-166
[IMU] IMU의 개념 및 활용법, accessed July 1, 2025, https://winterbloooom.github.io/robotics/perception/2021/11/17/imu.html
Fusion-Based Localization System Integrating UWB, IMU, and Vision - MDPI, accessed July 1, 2025, https://www.mdpi.com/2076-3417/15/12/6501
Real-Time Localization and Mapping Utilizing Multi-Sensor Fusion and Visual–IMU–Wheel Odometry for Agricultural Robots in Unstructured, Dynamic and GPS-Denied Greenhouse Environments - MDPI, accessed July 1, 2025, https://www.mdpi.com/2073-4395/12/8/1740
Enhancing Robotic Localization with IMUs: A Fundamental Technology for Precise Navigation | Analog Dialogue, accessed July 1, 2025, https://www.analog.com/en/resources/analog-dialogue/articles/enhancing-robotic-localization.html
자율주행차 만들기 - Seongkyun Han’s blog, accessed July 1, 2025, https://seongkyun.github.io/study/2019/10/31/autonomous_car/
(PDF) Real-Time Localization and Mapping Utilizing Multi-Sensor Fusion and Visual–IMU–Wheel Odometry for Agricultural Robots in Unstructured, Dynamic and GPS-Denied Greenhouse Environments - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/362221256_Real-Time_Localization_and_Mapping_Utilizing_Multi-Sensor_Fusion_and_Visual-IMU-Wheel_Odometry_for_Agricultural_Robots_in_Unstructured_Dynamic_and_GPS-Denied_Greenhouse_Environments
[스마트 건설 백과사전 VoI.06] 로봇이 스스로 움직일 수 있는 이유, SLAM, accessed July 1, 2025, https://www.hdec.kr/kr/newsroom/news_view.aspx?NewsSeq=781&NewsType=FUTURE&NewsListType=news_clist
공간을 이해하는 인공지능 Visual SLAM, accessed July 1, 2025, https://brunch.co.kr/@limpyojeong/23
SLAM이란 무엇일까요? : 티쓰리솔루션 블로그, accessed July 1, 2025, https://www.t3solution.co.kr/24/?bmode=view&idx=95337001
스스로 만드는 위치 지도 SLAM 기술의 원리 - LG디스커버리랩, accessed July 1, 2025, https://www.lgdlab.or.kr/contents/6
증강현실의 실시간 환경 매핑 시스템 - 재능넷, accessed July 1, 2025, https://www.jaenung.net/tree/24963
자율주행시대 대비한 ‘서울시 3D 지도’ 나왔다 - 지디넷코리아, accessed July 1, 2025, https://zdnet.co.kr/view/?no=20200618092955
혁신이라는 자율주행 자동차, 새로운 위험의 시작? - 글로벌모빌리티, accessed July 1, 2025, https://www.globalmotors.co.kr/view.php?ud=20240709133004385243a4b3e13b_5
위치기반 증강현실(AR) 산업 분야 적용 사례, accessed July 1, 2025, https://www.lbskorea.or.kr/bin/bbs/board_file_view.php?mode=download&name=FILE202108041346300.pdf
전 세계 어디에서나 활용할 수 있는 AR - 지티티코리아, accessed July 1, 2025, https://www.gttkorea.com/news/articleView.html?idxno=12685
증강 현실(AR)이란? - Ansys, accessed July 1, 2025, https://www.ansys.com/ko-kr/simulation-topics/what-is-augmented-reality
자율주행 로봇 기술 완전 정리: SLAM, LiDAR, 딥러닝 - hwangdolsun 님의 블로그, accessed July 1, 2025, https://hwangdolsun.com/12
로봇과 드론이 길을 찾는 비결, SLAM 기술의 원리와 활용 사례, accessed July 1, 2025, https://k-rnd.com/principles-and-application-examples-of-slam-technology/
사진과 위치 정보를 활용해 자동으로 일기를 만들어보세요 - 인하대학교 기술마켓, accessed July 1, 2025, https://www.inhatm.com/contents/transfers/663
스탠포드대, 사진 몇장으로 정확한 위치 파악 가능한 AI 개발 - AI타임스, accessed July 1, 2025, https://www.aitimes.com/news/articleView.html?idxno=156067
Visual place recognition from end-to-end semantic scene text features - Frontiers, accessed July 1, 2025, https://www.frontiersin.org/journals/robotics-and-ai/articles/10.3389/frobt.2024.1424883/full